معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
Authors
abstract
در این مقاله به معرفی شبکه های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روشهای پیشتعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضایی-زمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایشها نشان می دهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکه های عصبی پیمانه ای عمیق نسبت به مدل های مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضایی-زمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
similar resources
بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیا...
15 صفحه اولبازشناسی مقاوم گفتار با استفاده از ویژگی الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP
ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...
full textشبکه عصبی پیچشی با پنجرههای قابل تطبیق برای بازشناسی گفتار
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...
full textبازشناسی احساس از روی گفتار پیوسته فارسی
در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...
روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه
Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...
full textMy Resources
Save resource for easier access later
Journal title:
پردازش علائم و داده هاجلد ۱۳، شماره ۱، صفحات ۳۹-۵۶
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023